BOITES A OUTILS
étapes
d'une chaine de traitement de fils rss pour l'extraction et
l'analyse de patrons morphosyntaxiques
PRESENTATION DU PROJET :
Etudiantes en Master Traitement automatique des langues à l'Institut
national des langues et civilisations orientales (Inalco), nous avons
réalisé un projet dans le cadre du cours donné par M. Serge Fleury,
"Programmation et projet encadré", consistant à élaborer les différentes
étapes d'une chaine de traitements de fils rss issus du journal
Le
Monde sur l'année 2014. Le but final était de pouvoir extraire
de ces données des patrons morphosyntaxiques (par exemple, un nom, suivi
d'un adjectif). Cela permet ainsi d'en déduire des cooccurences selon le
domaine, la rubrique abordée.
Les différentes étapes de traitement que nous avons réalisées sont les
suivantes : extraction de balises XML de l'information qui nous
intéressait, étiquetage morphosyntaxique, extraction de patrons
morphosyntaxiques à travers différentes méthodes, et enfin, l'analyse
linguistique de nos résultats.
Si vous souhaitez connaître en détails tout le cheminement de notre
travail, nos réflexions, nos difficultés, il vous est possible de consulter
notre blog.
Merci à nos professeurs Messieurs Serge Fleury, Jean-Michel Daube et
Rachid Belmouhoub pour leur accompagnement tout au long de ce
projet.
Bonne visite à vous tous(tes) !
L'équipe-projet :
Lucille Blanchard
Manuela Dufour